6.4 协方差分析

1 模型 统计背景

回顾 前面的定义, 协方差分析组合了方差分析和回归分析. 它的模型形如 (1.1)y=X1β+X2γ+ε, 这里 X1β 对应属性因子的部分 (X101 矩阵), 称为方差分析部分; X2γ 对应数量因子部分, 称为回归分析部分. 假设 μ(X1)μ(X2)={0}, [1] X2 满列秩.

从试验角度, X1β 反映了人们精心设计、严格控制的部分, X2γ 则是人们无法掌控的因素.
最简单的例子就是在 单向分类模型 中添加一个因子的回归项: yik=β0+βi+xikγ+εiki,i=1,,r,ki=1,,ni, 这里 n=i=1rni.

对于写方差模型中的回归项, 我们可以定义为干扰变量. 它在 因果推断 中有进一步的讨论. 例如, 处理对茶树产量影响模型中, 干扰变量可以是接受处理前的产量; 饲料对小猪增重影响的模型中, 可以是小猪的初重.

2 基本方法

修改模型 (1.1)y=X1β+ε, 其中 y=yX2γ. [2] 这里 y 含了未知参数 γ, 所以不能视为观察值向量. 处理方法是我们给 γ 一个适当的估计量 γ^ 来代替, 从而得到 (2.1)z=X1β+ε1, 这里 z=yX2γ^.

对于 γ^ 的估计, 可以由消去方差分析部分的 (1.1) PX12y=PX12X2γ+PX12ε 估出. 它的正规方程是 X2TPX12X2γ^=X2TPX12y. 不难看出rank(X2TPX12X2)=rank(PX12X2)=rankX2dim(μ(X1)μ(X2))=rankX2, 从而γ^=(X2TPX12X2)1X2TPX12yz=[IX2(X2TPX12X2)1X2TPX12]y.
因此 X2γ 已经被消除, 可以用纯方差分析模型 (2.1) 进行. 此时剩余平方和为 SSε=||PX12z||2=||[PX12PX12X2(X2TPX12X2)1X2TPX12]y||2=yTPX12yyTPX12X2(X2TPX12X2)1X2TPX12y=yTPX12yyTPμy, 这里 μ=μ(PX12X2).
如果不引进协同变量, 相当于在最开始令 γ=0, 此时 SSε=yTPX12y, 故 yTPμy 这一项可以看作引进协同变量后精度方面的收获. 而对 (2.1) 做分析时候一定会出现 X2TPX12y 这样的量, 就像 X2,y 的样本协方差, 所以也称为协方差分析.

2.1 显著性检验

X2q 列, 则同样可以考虑假设 H0:γk+1==γq=0.X2=(X21X22), 其中 X21k 列. 则 H0 成立时, 模型为 y=X1β+X21γ(1)+ε,γ(1)=(γ1,,γk)T. 它的剩余平方和 SS0=||P(X1X21)y||2. 而 (1.1) 的剩余平方和为 SSε=||P(X1X2)y||2.
SSH=SS0SSε, 知 SSHSSε.
rankX1=r, 则 F=SSHSSεnrqqkFqk,nrq,δ 为检验量. H0 成立时 δ=0. 得到拒绝域 {FFqk,nrq(α)}.


  1. μ(X) 表示 X 的列向量张成的线性子空间. ↩︎

  2. 因为推断的重点还是我们精心设计的部分也即 β. ↩︎